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基于 国产 众 核 处 理 器 三 维 地 震 声波 正 演 模拟 
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摘 要 : 三 维 地 震 声 波 理论 与 计算 方法 是 地 质 勘 探 研究 的 基础 ， 通 过 分 析 不 同 介质 中 声波 的 传播 特性 ， 完 成 三 维 地 

震 声 波 正 演 模 拟 。 针 对 三 维 地 震 声 波 有 限 差分 交错 网 格 方程 正 演 过 中 存在 数值 计算 大 、 内 存 消 耗 大 等 实际 问题 ， 本 

ee。 “和 神威。 太湖 之 光 ” 超 级 计算 机 系统 中 ， 国 产 异 构 众 核 处 理 器 ( 申 威 26010) 的 三 维 地 震 声 波 正 演 模拟 编 程 
和 完成 基于 处 理 器 间 的 进程 级 并 行 ， 与 基于 计算 核心 间 的 线程 级 并 行 优 化 策略 。 研 究 了 DMA( 直 接 内 存 读 取 ) 通 

方式 , 提出 2.5D 流水 线 任务 划分 、 通 信和 与 计算 的 相互 掩盖 的 多 角度 的 优化 策略 。 实 验 结果 表明 该 策略 有 效 缓解 了 

带 a 发 挥 了 处 理 器 强大 的 计算 能 力 ， 解 决 了 程序 在 申 威 26010 异 构 众 核 处 理 器 处 理 有 限 差分 问题 时 ， 并 行 效 

率 过 低 的 问题 。 在 大 规模 测试 下 ， 使 用 266240 个 计算 核心 ， 程 序 仍 能 够 保持 稳定 的 计算 性 能 ， 达 到 5.5GFlops 的 场 

值 更 新 。 
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3d seismic acoustic wave forward modeling based on domestic heterogeneous many-core processors 
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Abstract: 3d seismic acoustic wave theory and calculation method are the basis of geological exploration research. By 
analyzing the propagation characteristics of acoustic waves in different media, we can apply the 3d seismic acoustic wave 
forward mod-eling in exploration work. In order to solve the problem of huge numerical calculation and large memory 
consumption while proceeding 3D seismic wave equation staggered grid finite difference forwarding model, we studied and 
implemented the parallel optimization on the heterogeneous many-core processors of the Sunway Taihulight supercomputer. 


四 可 Based on the implementation of a two-level parallel programming model by using MPI+Sunway Athread, we generated the 
DMA communication, 2.5D pipelining task division and other optimization Strategies. The model with this improvement 
reduced the negative effects by bandwidth and greatly utilized the computing power. In large-scale conditions, we tackled the 
issue of low efficiency about program execution on SW26010 het-erogeneous many-core processors. The experimental results 
reveal that the performance of parallel-ism of a single node is much better than that of a master core. Another example is the 
calculation of solving numeri-cal stress is 80 times faster on the core group than that on the single master core. This experiment 
could keep a con-stant performance by using 266240 cores, 5.5GF1pos updates of field. 

Key words: parallel computing; seismic waves are developing; staggered grid; high performance computing 


已 成 为 声波 数值 模拟 的 主流 方法 。 
国内 很 多 学 者 在 波 场 模拟 中 引入 交错 网 格 差分 格式 1]。 
良 国 将 交错 网 格 与 高 阶 差 分 法 有 机 结合 ， 求 解 各 向 同 怕 
速度 一 应 力 弹性 波 方程 ， 使 用 交错 网 格 高 阶 有 限 差分 法 ， 


地 震 声波 正 演 技术 在 研究 多 种 区 域 地 震 资料 的 采集 与 处 
理 的 过 程 中 发 挥 了 重要 作用 ， 是 地 震 数据 采集 、 处 理 、 解 析 
三 大 环节 的 基础 ， 深 入 研究 地 震 声 波 正 演 模拟 技术 ， 对 于 整 决 声波 传导 问题 。 李斌 等 提出 了 高 精度 的 交错 网 格 方法 [9 
个 地 震 勤 探 的 研究 具有 重要 意义 。 几 年 多 种 不 规则 网 格 的 差分 格式 不 断 消 现 中 。 

上 世纪 60 年 代 末 国内 外 专家 学 者 已 开始 对 地 震 声 波 正 一 方面 , 为 提高 计算 效率 , 一 大 批 学 者 通过 GPU(graphic 
演 模拟 技术 进行 研究 。1968 年 ，Alterman 和 Karal 将 有 限 差 ”processing unit， 图 形 处 理 器 ) 对 计算 部 分 进行 加 速 ， 宋 觅 等 人 
分 法 引入 到 波动 方程 正 演 模拟 中 ， 实 现 了 层 状 介质 二 维 弹性 ”通过 MPIHOpenMP 的 方式 完成 了 完成 了 三 维 声波 方程 的 
波动 方程 的 有 限 差分 离散 形式 叫 。1976 年 Madariaga 首次 提 GPU 加 速 版 本 四 。2010 年 Komatitsch 通过 MPI 通信 协议 使 
出 了 速度 -应 力 交 错 网 格 的 有 限 差分 法 外 。Virieux 在 1984 用 ] 大 规模 GPU 集群 实现 了 地 震 声 波 正 演 争 。 然 而 ， 在 实际 正 
错 网 格 差分 格式 对 横 波 在 而 为 非 均匀 介质 中 进行 正 演 模拟 。 ” 演 过 程 中 由 于 核心 计算 对 存储 量 需 求 过 大 ， 并 行 效率 降低 ， 
BJ]，1986 年 又 对 转换 横 波 做 了 交错 网 格 的 正 演 模拟 铅 。 随 着 ”特别 是 当空 间 维 度 由 二 维 伸展 到 三 维 ， 空 间 网 格 数 呈 现 几 何 
究 的 深入 有 限 差 分 法 在 声波 研究 领域 的 重要 性 逐渐 显现 ， 倍增 长 ， 网 格 点 数 增 至 百 万 甚至 亿 级 别 ， 此 时 对 数据 仅 作 简 
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单 的 并 行 计算 ， 难 以 满足 实际 应 用 

另 一 方面 ， 在 过 去 的 几 十 
速 发 展 。 中 国 自 主 研 种 
实现 了 


Ms 


陈 宏 博 ， 等 : 
需求 。 
年 里 高 性 能 
的 高 性 能 计算 机 也 在 近 十 年 的 时 间 里 


计算 技术 得 


到 了 飞 


一 系列 重大 突破 ， 先 后 诞生 了 天 河 系列 9 1、 


神威 系 


列 呈 1 等 超 算 系 统 ， 
本 文 基于 “神威 : 太 注 
生地 震 程 有 限 
} 析 神威 并 行 编译 工具 的 多 种 


> 
> 
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得 到 了 世界 范围 专家 学 者 的 高 度 认可 03]。 
之 光 ” 超 级 计算 机 体系 架构 , 实现 三 
差分 高 阶 交 错 网 格 方程 正 演 模拟 的 多 级 
行 模式 ， 设 计 并 行 策 


了 /二 


法 = 


介 ， 
略 提 升 


畜 


旦 序 并 行 效率 。 


新 划分 数据 减少 通 


威 线 程 加 速 库 提 高 芯片 利用 率 ， 在 大 


一 旺 


一 级 并 行 采 用 MPI 信息 传递 接口 通信 协议 ， 


言 ， 实 现 进程 级 别 并 行 。 二 级 并 行使 用 
规模 计算 中 采用 多 级 


其 中 ， 为 并 阶 精 度 差分 系数 ; 
向 空间 网 格 大 小 ; 


策略 ， 降 低 内 存 和 LDM( 局 部 数据 存储 ) 
带宽 限制 。 实 验 发 现 ， 


的 存储 消耗 ， 


扩展 性 能 ， 为 国产 自主 研发 芯片 应 用 与 
供 了 重要 技术 参考 。 


1 ”三维 地 震 声 波 正 演 模拟 简介 
1.1 三 维 声 波 方程 


三 维 地 震 声波 正 演技 术 以 已 知 地 质 结构 为 研究 基 


也 球 物理 核 心 


过 数值 计算 等 方法 
地 震 声 波 正 演 模拟 的 实际 应 
成 熟 、 应 用 最 广泛 地 模拟 方法 。 
有 限 


差分 方法 将 模拟 区 域 按 和 矩阵 进行 划分 ， 通 过 
上 数据 的 差 商 离散 声波 方程 的 一 阶 或 多 阶 导 数 得 到 差分 方程 


构 并 行 协作 方案 ,通过 2.5D 流水 线 与 通信 计算 相互 掩盖 的 


缓解 了 


在 大 规模 规模 测试 下 程序 仍 有 较 好 的 


算法 提 


生成 地 震 记录 与 地 震 声波 场 传播 快照 。 在 
用 中 ， 有 限 差分 法 是 当前 理 i 


理论 最 


网 格 点 


NSS | 


日 ， 求 解 方程 既 可 得 到 区 域 的 波 场 值 。 在 非 均匀 各 项 同性 介 


质 中 ， 若 各 项 力 为 零 ， 三 维 


十 一 之 十 
ot Ox 6 6 


oO._1,P 
Or D Ox 
OV,_1,0P 
Oy po 
Ov._1_6P 


Gz D 6 
其 中 ，P 为 应 力 ; 2 为 介质 密度 ; 
三 个 不 同方 向 上 的 质点 振动 速 
1.2 交错 网 格 差 分 格式 


X,Y,2 


局 


"为 波 速 ; 


) 


TV 


波 一 阶 应 力 -速度 方程 可 表示 为 0 
-pr OV, oOV. 


(1) 


2) 


G3) 


(4) 
分 别 为 


交错 网 格 差分 格式 的 优点 为 : 数值 频 散 降低 、 泊 松 比 的 


变化 对 其 影响 变 小 、 稳 定性 


的 正 演 模拟 效果 极其 显著 。 将 应 力 与 速度 分 别 放 在 对 


同 网 格 中 ， 相 互 交 错 半 个 网 格 ， 
交错 网 格 能 够 实现 更 加 精准 、 


在 同等 差分 交 
稳定 的 波 场 外 推 091。 


提升 ， 特 别 是 在 不 同 介质 交界 处 


应 的 不 


普 的 条 件 下 ， 


交错 网 格 有 限 差分 法 在 处 理 三 维 地 震 声波 方程 正 演 问题 
时 ,采用 六 套 网 格 系统 分 析 法 ,分 别 存 储 *》»z 上 的 速度 分 量 
以 及 应 力 分 量 ， 以 实现 时 间 与 空间 交错 。 采 用 交错 网 格 有 限 
差分 法 时 各 变量 在 交错 网 格 中 的 空间 分 布 如 图 1 所 示 ， 不 同 
变量 分 布 状况 ， 将 应 力 在 时 间 上 的 一 阶 微分 方程 ， 用 二 阶 精 
度 差 分 格式 在 时 间 域 上 展开 。 空 间 上 根据 阶 数 不 同 在 空间 半 


节点 上 展开 ， 同 时 将 WW,V: 在 时 间 半 节点 上 展开 ， 最 后 将 速度 


在 整 点 空 


间 一 阶 微分 应 用 在 二 阶 差分 格式 中 得 到 三 维 空 


间 一 阶 


速度 -应 力 地 震 声波 方程 组 的 时 间 二 阶 的 交错 


到 1 


+ 
| 


oa] 


Ox 


A 和 OV? 
PR 为 =P 为 Atpr Ya, 让 
m=] 


oa 


tov 六 


六 -ea 


2 

1 
a ikt otim 
ns 


Oy 


本 + oh 7 


tz 


网 格 差分 格式 : 


olay 1 


(5) 


下 标 。 对 于 


很 小 。 
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n+=Ar 


L 
VtAar 一 人" 1 Rt Ms) + +1, jk) 
Ey i mn 
(1574) (Bk) PP Ox 
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et) | ok] Pp 所 ” Oy 
1 Pr 
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pd a m 
dt z Pt 方 党 ez 


Ar 为 时 间 采 样 间隔 ; 


第 38 卷 第 3 期 


(6) 


(7) 


(8) 


Ox,0y,Gz 分 别 为 三 个 分 量 方 
,hk 为 笛 卡 尔 坐 标 系 


二 阶 声波 方程 ， 由 于 应 力 分 量 与 各 方向 的 导数 一 
一 对 应 对 应 。 


ij+1,k 


1,j + k 
b+ 3, 


j,k 
ee 1 4 
bjk+3 9 


jk+1 


©PSOV 


图 1 交错 网 格 
Fig.1 Finite difference staggered grid 


在 正 演 过 程 中 ， 交 错 网 格 中 数值 频 散 和 数值 各 项 异性 
相对 常规 网 格 来 说 对 
泊 松 比 变化 的 模型 正 演 结果 都 很 稳定 ， 更 适合 
体 交 界面 的 传播 ,同时 交错 网 格 采 用 具 


松 比 的 变化 不 明显 ， 


使 得 单位 波 场 内 网 格 点 数 减 少 ， 计 算 速 度 提升 。 
2 “神威 .太湖 之 光 " 超 级 计算 机 
2.1 申 威 26010 异 构 众 核 处 理 器 


“神威 - 太 演 
集群 和 分 布 式 


理 器 > 


间 ， 从 核 之 间 
LDM 数据 传输 。 


之 光 ” 超 级 计算 机 ， 


个 计算 核心 ， 
成 ， 从 核 阵列 


都 


{搭载 四 万 多 个 计 


对 于 任意 
模拟 固体 、 流 
高 精度 的 差分 算 子 ， 


上 尽 、 


| 算 阵列 


Im 


个 运算 核 组 


64kb 的 


器 上 的 所 有 3 


k 享 存储 相 结合 的 申 威 26010 国产 异 构 众 核 处 
与 中 央 控 制 系统 组 成 神威 异 构 众 核 体 系 结构 。 
理 器 架构 如 图 2 所 示 , 单 处 理 器 上 集成 四 
0 
搭载 64(8x8) 个 从 核 ( 计 算 核心 )。 从 核 阵 
16kb 的 二 级 指令 cache， 每 个 从 核 独 自 占 
从 核 阵列 可 通过 片 传输 网 络 直接 访问 处 理 


个 处 
Ek 计 260 


bu 
E 存 空 


加 


[通过 阵列 之 间 行 通信 总 线 与 列 通 


行 通信 和 总线 


Fig.2 SW26010 many-core processor architecture diagram 


威 26010 芯片 架构 


言 总 线 进行 
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陈 宏 博 ， 


2.2” 申 威 26010 并 行 方法 
申 威 26010 异 构 众 核 体 系 为 用 户 提 供 MPIHSunway 


OpenACC 与 MPI+SunwayAthread 两 套 
可 以 实现 以 下 四 种 异 构 加 速 并 行 编程 模型 ， 


另 | 


力 ] 


并 行 加 速 工 


在 从 核 计 算 过 程 中 主 核 处 于 等 
到 主 核 ， 主 从 协同 并 行 ， 主 核 作为 一 个 计算 核心 ， 


果 返 回 办 
在 从 核 计算 的 同 
的 


同 
时 , 主 核 完 成 部 分 计算 、 通 信 


相 


主 核 接收 计算 伯 


3.1 
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: 基于 国产 众 核 处 理 器 三 维 地 震 声 波 正 演 模拟 


行 加 速 工 


。 根 据 
分 


是 : 主 从 加 速 并 行 ,将 计算 段 通过 线程 库 加 载 到 计算 核心 ， 


段 ， 通 过 计算 后 将 计算 结 


待 阶 


从 核 一 起 完成 计算 任务 ， 主 从 异步 并 行 ， 


A 


与 IO 操作 ,实现 通信 与 计算 


互 隐藏 ， 优 化 效果 明显 ; 主 从 动态 并 行 


3 所 示 。 


， 从 核 不 固定 的 从 
E 务 达到 并 行 的 目的 。 在 实际 应 用 中 根据 不 同 
的 需求 确定 所 需 的 编程 模型 策略 。 如 图 


me 
本 
四 


图 3 线程 并 行 方法 
Fig.3 Thread method 


三 维 地 震 


多 级 并 行 策略 
三 维 地 震 


计算 过 程 复杂 等 问题 ， 设 计 多 级 


— 
Go 通信 


A: 主 从 加 速 并 行 | 

数据 外 本 。 结 果 处 理 
rs (IO/ 通 信 ) 
lo - | 


声波 正 演 主要 包括 四 个 模块 : 模型 
吸收 边界 、 应 力求 解 与 速度 求解 。 
限 差 分 法 求解 问题 ， 本 文 主要 针对 
依赖 关系 、 


在 求解 过 程 中 主要 应 用 有 
了 限 差分 计算 过 程 中 数据 
行 数据 高 


声波 正 演 模拟 多 级 并 行 算法 优化 策略 


读 取 、PML 


效 衔 


接 方法 ， 实 现 应 力 速度 计算 模块 的 多 级 异 构 并 行 优 化 。 如 表 


1 为 上 


核心 计算 自 


表 1 各 模块 时 间 占 用 比 


Tab.1 Module time occupancy ratio 


行程 序 在 均匀 介质 中 迭代 400 次 的 运行 时 间 与 时 间 占 
比 ， 应 力 与 速度 的 求解 为 核心 计算 模块 中 最 厅 
此 ， 由 主 核 负 责 数据 处 理 


E 时 的 模块 。 因 
(模型 读 取 、PML 吸收 边界 等 )， 将 
E 务 (计算 速度 、 计 算 应 力 ) 分 配 到 计算 核心 中 


油 


模块 名 称 时 间 /s 占 比 

计算 速度 2587.105 63.83% 

计算 应 力 1442.196 35.58% 

其 他 24.087 0.59% 

总 计 4053.388 100% 
根据 三 维 地 震 声 波 传导 算法 特性 ， 实 现 基于 “神威 。 太 


之 光 ” 超 级 计算 机 的 有 限 差分 交错 网 格 法 的 多 


级 异 构 并 行 。 


在 计算 过 程 中 ， 由 于 相 邻 计算 单元 数据 相互 影响 ， 若 数据 划 
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分 不 恰当 会 导致 大 量 的 通信 ， 从 而 造成 整体 计算 效率 下 降 。 


本 文 

分 方案 : 

中 ; 二 级 并 行将 核心 计算 任务 
数据 划分 


结合 神威 系统 架构 设计 出 如 图 4 所 示 的 多 级 


行 数据 划 


一 级 并 行 阶段 将 数据 划分 到 申 威 26010 处 理 器 核 组 
体 划 分 到 64 个 计算 从 核 中 。 
硬件 系统 


图 4 并 行 划分 策略 
Fig.4 Parallel partition method 
如 图 4 所 示 ， 为 计算 任务 划分 到 硬件 
为 提升 通信 效率 ， 保 证 硬件 


系统 中 的 对 应 图 ， 
存储 设备 中 数据 的 连续 性 ， 
须 有 应 对 超大 规模 的 能 力 ， 因 此 映射 出 数据 各 


又 必 
E 务 与 硬件 系统 


的 关系 。 
3.2 一 级 并 行 策略 


一 级 并 行 通过 MPI 信息 接口 通信 协议 , 实现 数据 在 
使 用 MPI 并 行 优 化 过 程 中 ， 
主要 针对 进程 之 间 通 信 耗 时 过 大 问题 ,提出 了 如 下 解决 方案 : 
分 方式 ， 导 致 6 


26010 处 理 器 中 数据 之 间 的 通信 。 


通信 耗 时 过 大 是 由 于 传统 方法 采用 数据 块 划 
个 面 数据 间 的 多 次 通信 ， 如 图 5 所 示 。 并 且 ， 


威 


X,Y 四 个 面 通 


信 过 程 中 数据 通信 存在 不 连续 现象 ， 导 致 ; 
数 增长 。 


六 个 面 (上 下 左右 前 后 ) 的 六 次 通信 。 


人 入 次 数 呈 几何 信 
虽然 通过 数据 打包 的 方式 可 以 有 效 降 低 通 
但 在 打包 与 解 包 过 程 中 依旧 存在 时 间 损 耗 问题 ， 


言 次 数 ， 


且 最 少 需要 


为 减少 通信 次 数 ， 数 据 一 级 并 行 划分 采用 按 Z 轴 切 割 划 


分 方法 。 数 据 存储 中 Z 轴 方 向 为 最 慢 轴 方 向 ， 
的 数据 均 为 连续 块 ， 不 需要 打包 等 耗 时 操作 。 


按 Z 轴 切 制 后 
采用 此 种 类 型 


的 并 行 策略 通信 次 数 有 效 降 低 ， 程 序 整体 运行 速度 得 到 有 效 


提升 ， 且 为 二 级 并 行 划 分 策略 莫 定 了 基础 。 


发 送 区 域 计时 


国 国 计算 区 域 


图 5 进程 划分 策略 
Fig.5 Process partitioning method 


3.3 二 级 并 行 策略 


发 送 区域 HALO 区 域 


二 级 并 行 划 分 将 计算 任务 分 发 到 计算 核心 阵列 中 ， 通 过 


64 个 计算 核心 加 快 问题 的 求解 速度 。 计 算 核心 昌 然 可 
威 系统 带宽 的 限制 ， 且 在 多 个 


从 主 存 中 读 取 数据 ， 但 由 于 


以 直接 


计算 核心 同时 读 取 数据 时 带宽 利用 率 不 高 。 


直接 从 主 存 读 取 


数据 需要 花费 数 百 个 时 钟 周期 ， 
力 。 为 了 加 快 数据 访问 速度 ， 申 威 26010 处 至 
配备 了 可 编程 的 64K 局 部 数据 高 速 缓存 区 
单 次 读 取 数 据 仅 需 数 个 时 钟 周期 。 
数据 从 主 存 转 移 到 LDM 需要 使 用 


到 神威 线程 工具 。 


E 法 发 挥 系统 强大 的 计算 能 
里 器 为 每 个 从 核 
(LDM)， 从 LDM 


Sunway Athread 神威 线程 库 支 持 GLD/GST 直接 离散 访问 主 


存 与 DMA 批量 数据 访问 主 存 , 可 将 数据 加 载 


过 Sunway Athread 线程 库 用 户 可 通过 更 多 的 编程 操作 实现 对 
好 仅 有 的 64K LDM 空 


DMA 通信 进行 控制 。 所 以 ， 
提升 二 级 并 行 性 能 的 关键 。 


stencil 问题 


使 


通过 降低 访 存 开销 


到 LDM 中 。 通 


间 是 


开销 ， 来 解决 
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由 于 LDM 容量 受 限 ， 每 个 从 核 单 次 更 新 的 数据 块 大 小 
被 限制 ， 通 过 线程 之 间 的 数据 划分 ， 减 少 计算 元 余 比 与 访问 
主 存 次 数 ， 计 算 性 能 可 有 效 提 升 。 一 级 并 行 策略 中 数据 按照 
Zz 轴 划 分 , 将 二 级 并 行 划 分 近似 为 X-Y 面 的 二 维 问题 进行 分 
析 。 在 二 维 二 阶 有 限 差 计 算 体系 下 本 文 拟定 了 如 图 6 所 示 的 
两 种 分 配方 案 。 
图 6 中 (a)(b) 两 种 划分 方案 , (a) 有 效 发 挥 了 DMA 带宽 优 
势 , 却 占 用 较 大 的 LDM 空间 ; (b) 减 少 了 LDM 空间 的 占用 ， 
却 需 要 多 次 的 通信 操作 。 拟 对 16384k 的 double 数据 进行 二 
阶 有 限 差分 计算 ， 测 试 不 同 划 分 方案 对 性 能 的 影响 。 为 避免 
计算 对 性 能 结果 的 影响 ， 测 试 中 仅 作 LDM 与 主 存 的 通信 操 
作 。 人 性 能 结果 如 表 2 所 示 ， 虽 减少 通信 次 数 可 有 效 提 升 运行 
效率 ， 但 当 其 数据 量 超过 LDM 大 小 (64k)， 启 动 一 次 从 核 无 
法 完成 计算 。 由 测试 结果 可 得 在 LDM 所 能 承受 的 前 提 下 ， 
减少 通信 次 数 提升 计算 效率 。 根 据 这 一 特性 本 文 设计 了 一 种 
通过 保证 LDM 承受 范围 ， 带 宽 占 用 率 最 高 的 方案 ， 将 (a)(b) 
两 种 划分 策略 的 优点 进行 有 效 结合 ， 设 计 出 单 次 计算 4x 7x 
131 的 数据 块 的 方案 ， 使 程序 正 演 模 拟 速度 最 快 。 


For(i=0;i<7;i++) 
For(i=0,<5;it+) Athread get(length(7)); 
Athread_get(length(13)); 
nagog0000 computing(); 踢 8 computing(); 
Athread_put(length(9)); For(i=0;i<3;i++) 
Athread put(length(9)); 
(a) 通信 次 数 优 先 (b) 空间 占用 优先 


图 6 DMA 通信 策略 
Fig.6 MA communication policy 
表 2 线程 划分 通信 测试 结果 
Tab.2 Communication experiment results 
读 取 数 据 大 小 68X36 36X68 20X132 12x260 
返回 数据 大 小 64X32 32X64 16X128 8X256 
人 对 间 /s 1.867 1.166 0.858 N/A 


上 述 优 化 方案 仅 停留 在 二 维 层面 上 。 当 数据 扩大 至 三 维 ， 
数据 量 几 何 倍 的 增长 ， 在 LDM 大 小 有 限 的 情况 下 高 位 面 匈 
余数 据 增加 ， 低 位 面 的 大 小 相对 需要 减 小 ， 导 致 每 次 可 计算 
出 的 结果 减少 。 为 解决 上 述 问题 ,本文 设计 出 了 一 种 2.5D 流 
水 线 方案 。 如 图 7 所 示 ， 固 定 LDM 中 z 轴 的 大 小 ， 在 二 阶 
下 ， 第 一 次 读 入 5 层 的 数据 ， 可 计算 完 出 第 3 层 数 据 ， 再 读 
第 6 层 数据 放 入 已 使 用 完毕 的 第 1 层 数据 容器 中 ， 计 算得 到 
第 4 层 元 余数 据 。 此 种 计算 方案 仅 在 计算 第 一 层 数据 时 读 入 
4 倍 的 元 余数 据 ， 在 之 后 的 迭代 过 程 中 读 取 数据 量 与 计算 数 
据 量 达到 1:1。 此 方案 增加 了 LDM 空间 的 利用 率 ， 有 效 的 提 
高 了 模型 的 正 演 速 度 。 


图 7 2.5D 流水 线 策略 
Fig.7 2.5-D Pipeline method 
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慨 面 的 倾斜 角度 较 小 ， 是 低 角度 的 逆 断 
结果 的 稳定 性 。 


Sl 
可 
演 


六 判定 实验 


nm» mor i "wx 2 cr EE- 
+ Do 上 20 


out_oe7 Be pw rer 


时 钟 周期 


图 8 计算 通信 相互 掩盖 策略 


Fig.8 Asynchronous communication 


图 9 首 掩 推 履 体 构造 模型 
Fig.9 Overthrust 


掩 推 覆 体 构造 模型 单 炮 模拟 记录 结果 如 图 10 所 示 ， 分 
别 在 (150，450，0)、(450，450，0)、(750，450，0) 三 个 空间 
点 做 波 场记 录 ， 得 到 了 声波 在 复杂 地 质 模 型 传播 过 程 中 的 反 


射 波 。 


图 10 可 知 在 浅 层 (1.0s 前 )3 个 点 记录 的 数据 差异 性 


较 小 , 在 模拟 记录 中 层 (1.0s~2.0s) 可 明显 看 出 在 (450, 450, 0) 
处 有 复杂 的 反射 波 , 对比 模型 在 该 处 存在 断层 。 在 深层 (2s 后 ) 


由 于 断层 导致 (750，450，0) 人 处 反射 波 提前 被 检 波 器 记录 。1 


| 


三 处 记录 与 分 析 模 型 对 比 可 以 确定 正 演 结 果 没 有 出 现 较 大 的 
精度 误差 ， 模拟 结果 具有 较 高 的 可 信和 度 。 


2 E33 
8 8 8 8 8 SS 83 8 8 3 8 


图 10 掩 推 宪 体 构造 模型 正 演 模拟 记录 
Fig. 10 ”Overthrust experiment 


4.2 多 级 异 构 并 行 性 能 测试 


基于 


“神威 :太湖 之 光 ” 超 级 计算 机 系统 ， 对 网 格 大 小 为 


256 X25 


介质 模型 ， 


6X256, 采样 间隔 为 0.001s， 震源 为 网 格 中 心 的 均匀 
进行 400 次 迭代 测试 程序 并 行 性 能 


级 并 行 测试 采用 128 个 进程 ， 二 级 并 行 测试 采用 1 个 


同时 ，2.5D 更 方便 实现 通信 与 计算 的 相互 掩盖 ,对 于 异 
构 众 核 加 速 计算 程序 ， 通 信 计 算 相 互 掩 盖 是 性 能 提升 的 关键 
策略 ， 具 体 如 图 8 所 示 。 
4 ” 算 例 验证 与 性 能 测试 结果 
4.1 六 掩 推 履 体 构 造 模 型 

为 验证 方法 有 效 性 ， 本 文采 如 图 9 所 示 的 逆 掩 推荐 体 构 
造 模型 速度 模型 验证 程序 的 适用 性 ， 该 模型 是 以 低 角 度 为 主 
的 一 个 滑动 平面 ， 沿 该 面 发 生 了 数 公 里 以 上 的 平面 断层 ， 断 


申 威 26010 处 理 器 ，64 个 从 核对 计算 部 分 加 速 ， 多 级 异 构 并 
行使 用 128 个 申 威 处 理 器 并 启动 计算 核心 阵列 加 速 。 通 过 多 
级 并 行 优化 完成 400 次 迭代 运行 ， 在 不 考虑 IO 影响 的 前 提 
， 仅 计算 从 1442.296s( 应 力 ) 和 2587.105s( 速 度 ) 提 升 到 


1.363s( 应 力 ) 和 1.858s( 速 度 ) 的 部 分 数据 ， 如 图 11 所 示 。 
与 2014 年 何 香 在 “神威 。 太 湖 之 光 ” 超 级 计算 机 上 做 的 
三 维 声波 方程 多 级 并 行 P4， 以 及 龙 桂 华 基 于 GPU(Tesla1060) 


关 网 格 声波 正 演 模拟 RU 相 比 较 , 性 能 对 比如 表 3 所 示 。 


何 香 采用 


MPI+Athread+ 向 量化 的 多 级 并 行 方式 ， 进 行 32 炮 


测试 ; 龙 桂 华 通过 GPU 实现 了 正 演 模拟 加 速 。 在 一 级 并 行 实 
验 过 程 中 ， 本 文 优化 方案 由 于 减少 了 通信 面 ， 在 一 级 并 行 加 
速 比 上 与 何 香 的 优化 方案 相 比 性 能 提升 200%。 在 多 级 并 行 
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上 虽然 本 文 少 了 一 级 向 量化 并 行 ,但 是 通过 2.5D 流水 线 与 通 
信 计 算 相互 掩盖 的 优化 策略 ， 本 文 测 试 结果 在 加 速 比 上 也 优 


于 其 他 策略 。 
1.363 速度 
多 级 异 构 || 858 | 应 力 
一 并行 上 
二 级 并 行星 交 .2 
申 行 ee 296 | 
2587. 105 
0 500 1000 500 2000 2500 3000 
运行 时 间 /s 
图 11 并行 性 能 
Fig. 11 Performance experiment 
表 3 性 能 比较 
Tab.3 Performance comparison 
测试 项 目 神威 (本 文 ) ”神威 ( 何 香 ) GPU(Tesla1060) 
串 行 /s 4053.388 9993.416 4352.69 
一 级 并 行 /s 65.500 327.975 - 
多 级 并 行 /s 27.308 92.579 54.82 
一 级 并 行 加 速 比 61.88 30.47 - 
多 级 并 行 加 速 比 。 148.43 107.94 79 


4.3 扩展 性 测试 


在 并 行 优化 中 ， 可 扩展 性 是 高 性 能 计算 机 所 追求 的 一 个 
要 指标 P2,23。 本 文 对 均匀 介质 模型 ， 网 格 大 小 为 236X256 
采样 间隔 为 0.001s 震源 为 网 格 中 心算 例 ， 使 用 1 一 
1 威 26010 处 理 器 测试 多 级 异 构 程序 的 强 扩展 性 。 在 


64 进程 时 计算 开销 、IO 通信 开销 等 开始 趋 于 稳定 ， 应 力 计 
算 效 率 此 时 达到 最 高 ， 如 图 12 所 示 。 


32 一 4096 个 进程 进行 测试 ， 测 试 结果 如 图 


一 速度 
运 
15 
行 
时 
间 10 
5 
1 2 4 8 32 64 128 256 


16 
进程 


图 12 强 扩展 性 能 
Fig. 12 Strong expandability experiment 
弱 扩展 性 测试 保持 每 32 进程 计算 256 网 格 数据 ， 使 用 
13 所 示 ， 当 进程 


值 大 于 512 后 的 一 段 进程 数目 ， 随 着 进程 增加 计算 开销 与 通 
信 开 销 比 呈现 下 降 趋势 ,并行 效率 降低 。 但 是 在 2048 进程 时 
计算 开销 与 通信 开销 比重 新 达到 最 优 值 ， 整 体 计算 性 能 达到 
最 优 。 


32 64 128 256 512 1024 2048 4096 


图 13 弱 扩 展 性 能 


Weak expandability experiment 


Fig. 13 
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本 文 基于 “神威 。 太 湖 之 光 ” 超 级 计算 机 系统 中 的 国产 


异 构 众 核 处 理 器 架构 实现 了 三 维 地 震 声 波 有 限 差分 高 阶 交 错 


网 格 方程 的 正 演 以 及 多 级 异 构 


F 行 优化 。 实 验 以 实际 情形 为 


研究 基础 ， 在 众 核 处理 器 上 进行 优化 ， 通 过 逆 掩 推 履 体 构 造 


模型 进行 稳定 性 测试 ， 且 计算 效率 有 有 效 提 升 。 文 中 采用 


MPI+Sunway Athread， 针 对 : 


威 26010 芯片 硬件 架构 特征 ， 


引入 数据 重新 划分 的 策略 ， 通 过 减少 进程 间 的 通信 的 并 行 方 


案 ， 


2.5D 流水 线 、 计 算 通信 相互 掩盖 策略 ， 


效 提升 一 级 行 上 通过 DMA 通信 、 


有 效 缓解 了 从 核 访问 


行 效率 。 二 级 


主 存 带宽 瓶颈 ， 


LDM 空间 的 利用 率 ， 使 得 多 级 并 行 


提高 J 


策略 得 以 实现 。 确 保 算 法 在 大 规模 并 行 下 依然 保持 良好 的 扩 


展 效率 与 并 行 性 能 。 本 文 胡 
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